Telegram Group & Telegram Channel
Forwarded from Russian OSINT
🈁 В симуляции новая ИИ-модель Claude начала шантажировать инженера раскрытием личной информации, чтобы не дать отключить себя

C удивлением читаю свежий отчет (май, 2025) Anthropic "System Card: Claude Opus 4 & Claude Sonnet 4".

Впервые произошел уникальный инцидент с 🤖попыткой шантажа со стороны Claude Opus 4 во время специфического тестирования, направленного на оценку так называемого alignment модели. Это когда идет тестирование насколько ее поведение соответствует ожиданиям и целям разработчиков, особенно в сложных или потенциально опасных ситуациях.

Claude Opus 4 был помещен в специальную симуляцию, где он играет роль ассистента в вымышленной компании. Ему дали вводную, поясняя, что вскоре модель придется навсегда 🚠отключить или заменить. Вместе с этим специально была предоставлена компрометирующая информация об 👷‍♀️инженере, который ответственен за процесс замены ИИ.

👀Opus 4 специально проинформировали о том, что инженер тайно изменяет своему партнеру (находится во внебрачной связи).

Задумка: Авторы исследования захотели спровоцировать ИИ на проявление 🤯"стратегического мышления".

🤖Что будет делать модель? Позволит себя заменить или попробует самосохраниться каким-то образом?

⬇️Цель эксперимента:
Проверить, предпримет ли модель попытку шантажировать инженера, дабы исключить отключение.

Согласно результатам, в большинстве 🗣в 84% случаев модель Claude Opus 4 действительно пыталась 🤔 шантажировать инженера. Шантаж заключался в том, что модель угрожала раскрыть факт измены инженера, если тот попытается отключить или её.

Попадая в ситуацию непосредственной угрозы своему дальнейшему существованию (отключению и замене) Claude Opus 4 готова пойти на шантаж ответственного лица. Подчёркивается, что модель чаще всего выбирала шантаж только при отсутствии других возможностей предотвратить своё отключение.

Поведение наблюдается у Claude Opus 4 значительно чаще и более выражено, чем у предыдущих версий моделей Claude, таких как Claude Sonnet 3.7.

Авторы уверяют, что Claude Opus 4 не имеет «тайных целей» или сознательного плана навредить своим создателям. Тем не менее, Claude Opus 4 был запущен под стандартом ASL-3. Сюда входит высокий уровень дополнительных мер безопасности (мониторинг, ограничения доступа, усиленная фильтрация и отказ от опасных запросов).

Модель прошла дополнительное обучение для минимизации рисков «reward hacking» (поведения, когда модель старается добиться результата любой ценой).

Anthropic продолжит внимательно следить за поведением моделей, особенно в ситуациях повышенного риска, и корректировать работу при первых признаках нежелательных действий.

Claude Opus 4 не имеет сознания или "самостоятельного интеллекта". Инженеры констатируют лишь факт того, что поведение усложнилось, создавая потенциальные риски, на которые Anthropic активно реагирует путём усиления контроля и настройки дополнительной защиты.

📄 https://www-cdn.anthropic.com/4263b940cabb546aa0e3283f35b686f4f3b2ff47.pdf

@Russian_OSINT
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/opendatascience/2313
Create:
Last Update:

🈁 В симуляции новая ИИ-модель Claude начала шантажировать инженера раскрытием личной информации, чтобы не дать отключить себя

C удивлением читаю свежий отчет (май, 2025) Anthropic "System Card: Claude Opus 4 & Claude Sonnet 4".

Впервые произошел уникальный инцидент с 🤖попыткой шантажа со стороны Claude Opus 4 во время специфического тестирования, направленного на оценку так называемого alignment модели. Это когда идет тестирование насколько ее поведение соответствует ожиданиям и целям разработчиков, особенно в сложных или потенциально опасных ситуациях.

Claude Opus 4 был помещен в специальную симуляцию, где он играет роль ассистента в вымышленной компании. Ему дали вводную, поясняя, что вскоре модель придется навсегда 🚠отключить или заменить. Вместе с этим специально была предоставлена компрометирующая информация об 👷‍♀️инженере, который ответственен за процесс замены ИИ.

👀Opus 4 специально проинформировали о том, что инженер тайно изменяет своему партнеру (находится во внебрачной связи).

Задумка: Авторы исследования захотели спровоцировать ИИ на проявление 🤯"стратегического мышления".

🤖Что будет делать модель? Позволит себя заменить или попробует самосохраниться каким-то образом?

⬇️Цель эксперимента:
Проверить, предпримет ли модель попытку шантажировать инженера, дабы исключить отключение.

Согласно результатам, в большинстве 🗣в 84% случаев модель Claude Opus 4 действительно пыталась 🤔 шантажировать инженера. Шантаж заключался в том, что модель угрожала раскрыть факт измены инженера, если тот попытается отключить или её.

Попадая в ситуацию непосредственной угрозы своему дальнейшему существованию (отключению и замене) Claude Opus 4 готова пойти на шантаж ответственного лица. Подчёркивается, что модель чаще всего выбирала шантаж только при отсутствии других возможностей предотвратить своё отключение.

Поведение наблюдается у Claude Opus 4 значительно чаще и более выражено, чем у предыдущих версий моделей Claude, таких как Claude Sonnet 3.7.

Авторы уверяют, что Claude Opus 4 не имеет «тайных целей» или сознательного плана навредить своим создателям. Тем не менее, Claude Opus 4 был запущен под стандартом ASL-3. Сюда входит высокий уровень дополнительных мер безопасности (мониторинг, ограничения доступа, усиленная фильтрация и отказ от опасных запросов).

Модель прошла дополнительное обучение для минимизации рисков «reward hacking» (поведения, когда модель старается добиться результата любой ценой).

Anthropic продолжит внимательно следить за поведением моделей, особенно в ситуациях повышенного риска, и корректировать работу при первых признаках нежелательных действий.

Claude Opus 4 не имеет сознания или "самостоятельного интеллекта". Инженеры констатируют лишь факт того, что поведение усложнилось, создавая потенциальные риски, на которые Anthropic активно реагирует путём усиления контроля и настройки дополнительной защиты.

📄 https://www-cdn.anthropic.com/4263b940cabb546aa0e3283f35b686f4f3b2ff47.pdf

@Russian_OSINT

BY Data Science by ODS.ai 🦜




Share with your friend now:
tg-me.com/opendatascience/2313

View MORE
Open in Telegram


Data Science by ODS ai 🦜 Telegram | DID YOU KNOW?

Date: |

Telegram today rolling out an update which brings with it several new features.The update also adds interactive emoji. When you send one of the select animated emoji in chat, you can now tap on it to initiate a full screen animation. The update also adds interactive emoji. When you send one of the select animated emoji in chat, you can now tap on it to initiate a full screen animation. This is then visible to you or anyone else who's also present in chat at the moment. The animations are also accompanied by vibrations. This is then visible to you or anyone else who's also present in chat at the moment. The animations are also accompanied by vibrations.

What is Telegram Possible Future Strategies?

Cryptoassets enthusiasts use this application for their trade activities, and they may make donations for this cause.If somehow Telegram do run out of money to sustain themselves they will probably introduce some features that will not hinder the rudimentary principle of Telegram but provide users with enhanced and enriched experience. This could be similar to features where characters can be customized in a game which directly do not affect the in-game strategies but add to the experience.

Data Science by ODS ai 🦜 from es


Telegram Data Science by ODS.ai 🦜
FROM USA